Local feature detection is a key ingredient of many image processing and computer vision applications, such as visual odometry and localization. Most existing algorithms focus on feature detection from a sharp image. They would thus have degraded performance once the image is blurred, which could happen easily under low-lighting conditions. To address this issue, we propose a simple yet both efficient and effective keypoint detection method that is able to accurately localize the salient keypoints in a blurred image. Our method takes advantages of a novel multi-layer perceptron (MLP) based architecture that significantly improve the detection repeatability for a blurred image. The network is also light-weight and able to run in real-time, which enables its deployment for time-constrained applications. Extensive experimental results demonstrate that our detector is able to improve the detection repeatability with blurred images, while keeping comparable performance as existing state-of-the-art detectors for sharp images.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
在科学计算中,在科学计算中的许多应用中出现了从样本点近似平滑,多元功能的问题,在科学和工程的计算不确定性量化(UQ)中。在这些应用中,目标函数可以代表参数化部分微分方程(PDE)的所需量。由于解决此类问题的成本很高,在解决每个样本中通过求解PDE计算,样本效率是有关这些应用的关键。最近,越来越多地关注深度神经网络(DNN)和深度学习(DL)从数据中学习此类功能。在这项工作中,我们提出了一种自适应抽样策略,CAS4DL(基督佛尔自适应采样用于深度学习),以提高DL的样本效率用于多元功能近似。我们的新方法基于将DNN的第二至最后一层解释为该层上节点定义的函数词典。从这个角度来看,我们定义了一种自适应采样策略,该策略是由最近提出的线性近似方案提出的自适应采样方案激励的,其中该词典跨越的子空间的基督教词函数随机绘制了样品。我们提出了比较CAS4DL与标准蒙特卡洛(MC)采样的数值实验。我们的结果表明,CAS4DL通常可以在达到给定准确性所需的样品数量中节省大量,尤其是在平滑激活功能的情况下,与MC相比,它显示出更好的稳定性。因此,这些结果是将DL完全适应科学计算应用的有希望的一步。
translated by 谷歌翻译
超声检查的胎儿生长评估是基于一些生物特征测量,这些测量是手动进行并相对于预期的妊娠年龄进行的。可靠的生物特征估计取决于标准超声平面中地标的精确检测。手动注释可能是耗时的和依赖操作员的任务,并且可能导致高测量可变性。现有的自动胎儿生物特征法的方法依赖于初始自动胎儿结构分割,然后是几何标记检测。但是,分割注释是耗时的,可能是不准确的,具有里程碑意义的检测需要开发特定于测量的几何方法。本文描述了Biometrynet,这是一个克服这些局限性的胎儿生物特征估计的端到端地标回归框架。它包括一种新型的动态定向测定(DOD)方法,用于在网络训练过程中执行测量特定方向的一致性。 DOD可降低网络训练中的变异性,提高标志性的定位精度,从而产生准确且健壮的生物特征测量。为了验证我们的方法,我们组装了一个来自1,829名受试者的3,398张超声图像的数据集,这些受试者在三个具有七个不同超声设备的临床部位收购。在两个独立数据集上的三个不同生物识别测量值的比较和交叉验证表明,生物元网络是稳健的,并且产生准确的测量结果,其误差低于临床上允许的误差,优于其他现有的自动化生物测定估计方法。代码可从https://github.com/netanellavisdris/fetalbiometry获得。
translated by 谷歌翻译
离子液体(ILS)是可持续过程的重要溶剂,并且需要预测IL中溶质的活性系数(AC)。最近,矩阵完成方法(MCM),变压器和图神经网络(GNN)在预测二元混合物的AC方面表现出很高的精度,例如宇宙RS和UNIFAC优于公认的模型。 GNN在这里特别有希望,因为他们学习了分子图到特性的关系,而无需预处理,通常是变压器所需的,并且与MCMS不同,适用于不包括训练中不包括的分子。但是,对于ILS,目前缺少GNN应用程序。在此,我们提出了一个GNN,以预测IL中溶质的温度依赖性无限稀释液。我们在包括40,000多个AC值的数据库上训练GNN,并将其与最先进的MCM进行比较。 GNN和MCM实现了类似的高预测性能,GNN还可以对培训期间未考虑的IL和溶质的AC进行高质量的预测。
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
将来,强大的AI系统可能会在高风险的设置中部署,在这种情况下,单个故障可能是灾难性的。在高风险设置中改善AI安全性的一种技术是对手训练,该培训使用对手来生成示例进行训练,以实现更好的最差表现。在这项工作中,我们将语言生成任务用作测试台,以通过对抗性培训来实现高可靠性。我们创建了一系列的对抗训练技术 - 包括一种有助于人类对手的工具 - 以在分类器中找到和消除故障,该分类器过滤了发电机建议的文本完成。在简单的“避免受伤”任务中,我们确定我们可以设置非常保守的分类器阈值,而不会显着影响过滤后的输出的质量。使用我们选择的阈值,使用基线分类器进行过滤,将不安全完成的速度从分布数据的数据降低到约2.4%至0.003%,这是我们测量能力的极限。我们发现,对抗性训练可显着提高对我们训练的对抗攻击的鲁棒性,而不会影响分布性能。我们希望在高风险的可靠性环境中看到进一步的工作,包括更强大的工具来增强人类对手,以及更好的方法来衡量高水平的可靠性,直到我们可以自信地排除强大模型的灾难性部署时间失败的可能性。
translated by 谷歌翻译
大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现,这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响,我们培训了一个5400亿个参数,密集激活的变压器语言模型,我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm,这是一种新的ML系统,可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中,Palm 540B实现了突破性的表现,在一系列多步推理任务上表现出色,超过了最新的最新表现,并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进,这意味着当我们扩展到最大模型时,性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能,我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析,并研究了训练数据记忆的程度,相对于模型量表。最后,我们讨论与大语言模型有关的道德考虑,并讨论潜在的缓解策略。
translated by 谷歌翻译